#Google TPU话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

3个月前

著名投资机构Coatue做的这个图很有意思，Google TPU阵营在9-11月大幅跑赢了OpenAI GPU阵营，说明9月份在Gemini 3 发布之前，Google Gemini 2.5发布之后，机构就开始意识到Google的TPU相对的成本优势。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Coatue #Google TPU #OpenAI GPU #Gemini 2.5 #成本优势

RamenPanda

3个月前

大白话讲解谷歌TPU VS GPU #### 1. TPU 诞生的真正原因（2013-2015） - Google 谷歌发现：如果每个安卓用户每天用语音搜索 3 分钟，现有 CPU/GPU 算力要让全球数据中心翻倍。 - 结论：必须自研 ASIC 专门跑矩阵运算（神经网络推理），否则 AI 成功会把自己“撑死”。 - 从立项到量产仅 15 个月，2015 年就已经在 Google 搜索、地图、照片、翻译背后悄悄运行。 #### 2. TPU vs GPU 的本质区别 - GPU：通用并行处理器，背着“图形渲染”历史包袱（缓存、分支预测、复杂调度等）。 - TPU：极简“领域专用架构”（Domain-Specific Architecture） - 核心是 **Systolic Array（脉动阵列）**：权重只加载一次，数据像血液一样单向流动，几乎不回写内存，彻底解决冯诺依曼瓶颈。 - 最新一代 TPU v7（Ironwood，2025 年 4 月发布）单芯片规格： - 4,614 TFLOPS（BF16） - 192GB HBM（与 Blackwell B200 相同） - 内存带宽 7,370 GB/s - 性能/功耗比比上代 v6e（Trillium）提升 100% #### 3. 真实性能对比 - 推理场景下，TPU 性价比普遍比 Nvidia GPU 高 30%-100%（看具体工作负载） - 典型说法： - “同样的钱，8 张 H100 的活，1 个 TPU v5e Pod 就能干” - “TPU v6 比 Hopper GPU 省电 60-65%” - “老一代 TPU 降价极狠，新一代出来后上一代几乎白送” - 即使 Jensen Huang 也承认：ASIC 里只有 Google TPU 是“special case”。 #### 4. TPU 普及的最大障碍 - 生态锁死：程序员大学学的是 CUDA + PyTorch，TPU 用 JAX/TensorFlow（虽已支持 PyTorch，但库仍不完善） - 只能在 Google Cloud 用（AWS/Azure 都没有），数据迁移成本（egress fee）极高，企业不敢 All-in - 目前主要赢在推理，训练虽强但 CUDA 生态仍占优势 #### 5. 对 Google Cloud 的战略意义 - AI 时代云服务毛利率从 50-70% 暴跌到 20-35%，因为大家都在给 Nvidia 打工（Nvidia 毛利 75%）。 - 谁能用自研 ASIC 摆脱 Nvidia，谁就能重回 50%+ 毛利。 - 三大云厂商自研 ASIC 进度：**Google TPU >> AWS Trainium > Azure MAIA** - Google 已把 TPU 设计前段（RTL）全部握在自己手里，Broadcom 只做后端物理实现，Broadcom 毛利率被压到 50% 左右。 - 内部：Google 搜索、Gemini、Veo 等全部用 TPU 推理；对外 GCP 客户要 Nvidia 才给 Nvidia。 - **TPU 是 GCP 在 AI 时代翻盘、抢回云市场份额的最大王牌**。 - Google 正疯狂扩产 TPU v7（Ironwood） - 外部客户 2025 年底才开始大规模拿到 - 业内预计 2026 年 Google TPU 出货量将出现爆发式增长（与你之前那张 UBS 报告提到的“Google TPU v7p 明显放量”完全吻合） **总结：** Google TPU 是目前唯一真正能和 Nvidia 掰手腕的自研 AI 芯片，尤其在推理时代具备压倒性性价比优势，未来 5-10 年将是 Google Cloud 最大护城河，也是台积电 CoWoS 封装需求暴涨的最重要驱动力之一。

#Google TPU #NVIDIA GPU #AI芯片 #推理性价比优势 #Google Cloud

范凯谈AI

3个月前

我这两天仔细研究了一下Google的TPU，简单写一下我的初步结论： 1. Google TPU在特定的场景下，例如超大规模模型训练(万卡)和推理上，能效比超过了同等算力的英伟达GPU，能效比应该至少提升30%，也有说更高的。为啥TPU强？除了TPU是更有针对性的ASIC之外，TPU为大规模并行计算做了硬件的优化(光互联)和软件的优化(JAX/XLA)，从理论上就优于更加考虑通用性和兼容性的GPU。 2. Google的TPU也拥有一个虽然规模小很多，但是完整的软硬件生态，就是JAX/XLA/TPU，类似于英伟达的Pytorch/CUDA/GPU。如果说英伟达的生态是PC/Windows组合的话，Google就是Mac/MacOS组合。英伟达是大众普及型，兼容性好，市占率高；而Google是小众的，兼容性差，专业用户心头好。只有那些极致追求性能，并且需要超大规模训练和推理的厂商有必要使用JAX/XLA/TPU，其他人其实没啥必要，得不偿失。当然Mac机也可以跑Windows，PC机也可以装MacOS，所以马斯克的xAI虽然使用英伟达的H100 GPU，但用的是JAX，为了追求极致的压榨性能。 3. 想要自研AI芯片的，你得能搞出来一整套JAX/XLA/TPU来。Google搞TPU和Tensorflow/JAX有好多年历史了。其他想要复制Google自研芯片的，无论是AMZN，MSFT，META，我的判断是：没戏！因为你不是找AVGO设计ASIC芯片那么简单的事情，你要配合设计XLA编译器，设计JAX这样的并行计算框架，现有的软件还要适配和兼容，那就不是两三年可以搞定的。更何况AMZN，MSFT，META自己训练模型都没搞出来啥成果，你还搞更底层的？不配啊！所以结论：Google的成功不可复制。 4. Google会不会卖TPU，冲击英伟达的主营业务？从逻辑上来说基本不可能。因为TPU只有在超大规模训练和推理上有明显优势，但兼容性差，会JAX的程序员也少，编程门槛还很高。因此TPU在非大型客户市场，根本不具备竞争力。而大型的潜在客户无非就是那几个：OpenAI，Anthropic，AMZN，MSFT，META，xAI，Oracle。不是大模型厂商，就是云厂商。 OpenAI是Google的模型直接竞争对手，AMZN和MSFT是Google的云市场直接竞争对手，你说Google会不会资敌？我说不会。而xAI呢，马斯克和OpenAI，Google都是死敌。 Anthropic倒是Google投资的，所以Anthropic租用Google云的TPU训练Claude模型。而META现在求着Google想买TPU，这两家竞争关系不那么强，我猜大概率也不会卖。这么算下来，其实直接卖TPU没多少市场的。所以Google的现在做法就是在云上卖TPU算力，这个就香多了。想追求极致能效比的大规模推理，又不想自己建机房的，用Google云服务不就是最好的吗？ 5. 对英伟达的冲击：有，但是没有那么强。前面说了，Google的成功不可复制。所以其他客户还是会买英伟达。真正减少的市场份额主要是两类： 1. Google自己会减少对英伟达GPU的采购需求； 2. 租用Google云端TPU的厂商，例如Anthropic会减少对英伟达GPU的采购需求；所以英伟达在未来的2-3年内，可能统治力会稍有下降，例如AI算力芯片的市占率从90%缓慢下滑到80%左右。但我认为并不会改变英伟达的商业逻辑。就像苹果Mac电脑的普及，虽然让Windows的市占率从99%下降到了90%。但不改变Windows的垄断格局。最终颠覆Windows的是PC市场饱和了，然后手机市场兴起了。 6. Google确实现在很厉害，非常厉害 1. AI算力上，在超大规模的模型训练和推理方面，拥有了完整的生态闭环：JAX/XLA/TPU，不输英伟达； 2. AI Infra上，Google Cloud虽然市占率不如AMZN和MSFT，但成长速度很快。而且TPU的租赁费用相比GPU还有价格优势； 3. AI模型上，Gemini 3在很多方面完全不输GPT-5.1，甚至有超越，基于云成本优势，Gemini可以提供更便宜的API调用价格，这样反过来还能提供Gemini优势； 4. AI产品上，搜索+AI Mode；知识产品Notebook LM；还有生成式UI这样惊艳的创意。考虑到Google海量的C端用户体量，实际上非常有希望。关键是Google在以上的AI领域形成了一个从硬件、基础设施、模型和产品的完整闭环，还能互相加强。所以我的结论就是：在英伟达已经有不小仓位的情况下，我打算把本来加仓英伟达的钱留给Google了。

#Google TPU #英伟达GPU #AI芯片自研 #JAX/XLA #AI生态

凡人小北

3个月前

本来大家都以为 AI 的剧本已经写死了：模型看 OpenAI，芯片看英伟达。结果 Gemini 3 一出，剧情突然就反转了。 Google 除了大秀模型，还把真正的杀招摊开摆在桌上，TPU 不止在云里跑，现在要进 Meta 的机房。市场瞬间整明白了：Google 想建立的一条完整的谷歌链开始成型了。听懂的也包括Nvidia，谷歌刚给 Anthropic 扔了 100 万片 TPU，黄仁勋立刻回手几十亿投资，把对方再锁回 GPU 阵营。动作跟被谁刺了一刀一样麻利。划重点，这是第一次有人证明除了 GPU，TPU 也能撑起最强模型。而且还便宜省电。以后英伟达的日子就不会再像去年那么舒服了。故事还没完，但很明显： Google 掺合进来后已经开始改写 AI 的供应链叙事，英伟达也得开始算一笔从没算过的账。看好 Google。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3 #Google TPU #英伟达GPU竞争 #AI供应链重塑 #谷歌生态

沉浸式翻译

3个月前

为什么 H100 显卡这么贵？Google 的 TPU 到底强在哪里？OpenAI 的训练成本到底是多少？如果你很关注 AI 基础设施（Infra），SemiAnalysis 是目前全球最硬核、最敢说的半导体与 AI 产业分析简报。订阅它能为你解决什么问题？祛魅：作者 Dylan Patel 以深度挖掘供应链数据著称，他能告诉你大模型背后真实的“算力账单”，打破大厂的营销滤镜。底层架构分析：深度解析 NVIDIA, AMD, Google 等巨头的芯片架构差异，这对于做模型训练优化（CUDA 优化）的工程师极具参考价值。前瞻性：它往往能比新闻媒体提前数月预测算力瓶颈和硬件趋势。虽然部分深度文章收费，但其免费 Newsletter 和公开的推特分析已经是信息金矿

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#H100显卡 #Google TPU #OpenAI训练成本 #AI基础设施 #算力分析

Balder 猫哥

3个月前

事实证明，Google的TPU和NVDA的GPU，未来可能是竞争关系。最新的Gemini 3.0的训练和推理，都是完全基于Google自创的TPU+Tensorflow 考虑到NVDA的GPU超高溢价（75%的利润率），Google的AI训练推理以及提供计算资源的芯片成本，可能是其他竞争对手25%-50%左右。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Google TPU #NVDA GPU #Gemini 3.0 #AI训练推理 #芯片成本